Posted 2025-12-31Updated 2025-12-31toLearn8 minutes read (About 1259 words)

GUIAgents

导言

2025年被说成是Agent元年，

251229 MAI-UI

阿里巴巴团队提出的MAI-UI^1是首个面向真实场景的全尺寸基础GUI代理系列（含2B/8B/32B/235B-A22B模型），通过三项创新突破行业瓶颈：

自进化数据管道
- 融合用户交互与MCP工具调用数据，支持ask_user（主动澄清模糊指令）和mcp_call（调用API压缩长操作序列）扩展动作。
- 采用迭代拒绝采样生成高质量轨迹，复用失败轨迹中的正确操作前缀。
原生设备-云协作系统
- 动态路由任务：本地代理监控执行偏差与隐私敏感数据，仅在必要时调用云端大模型。
- 效果：减少40%云调用，40.5%任务完全在设备端完成，隐私数据零上传（见图11）。
动态环境在线强化学习
- 支持50步长交互序列，通过容器化技术并行512个Android环境，训练效率提升50.1%。
- 奖励设计：任务完成奖励+重复操作惩罚，结合经验回放稳定学习过程。
- 增强的GRPO算法: enhanced GRPO with data curriculum, repetition penalty, and experience replay （数据课程、重复惩罚和经验回放）

经验回放

我们保留了一个在训练中收集的成功轨迹的回放缓冲。当一个rollout组没有成功完成时，我们用从缓冲区中随机采样的轨迹来增加它。缓冲区不断更新新的成功经验，每个任务只保留最近的八个轨迹，以保持接近策略的学习。这种机制确保了即使在具有挑战性的探索阶段也能持续学习信号，稳定训练并加速收敛。

⚙️ 二、技术架构：统一多能力代理框架

GUI定位：采用”指令即推理”范式（Instruction-as-Reasoning），从外观/功能/位置/意图四视角生成指令，提升复杂界面定位精度（如ScreenSpot-Pro达73.5%）。
动作空间：支持点击、滑动、文本输入等基础操作，扩展用户交互与MCP工具调用（见表1）。

三、 关键能力验证

💡 四、应用价值与开源计划

GUIAgents

Shaojie Tan

2025-12-31

2025-12-31